查看原文
其他

统计计量 | 选择性偏差与内生性问题是一回事儿吗?

数据Seminar 2022-12-31

The following article is from 功夫计量经济学 Author 江河JH

本文转载自公众号功夫计量经济学


选择性偏差和内生性问题都是微观计量经济学中老生常谈的话题,但是对于二者的联系和区别,却少有教材进行了探讨。在经典计量经济学教材中(如Wooldridge,Gujarati和陈强等),很大篇幅的内容都在探讨内生性问题及其解决方案,但却几乎看不到选择性偏差的身影。在现代微观计量教材中(如Angrist,赵西亮等),选择性偏差贯穿始终,但却又几乎看不到内生性问题的身影。二者的关系可谓是扑朔迷离,相信大家都会隐隐有一种感觉,选择性偏差和内生性问题说的好像是一回事儿,但又好像不是一回事儿。

选择性偏差

想要理解选择性偏差,首先要理解潜在结果框架(Rubin 因果模型)。让我们看一个简单的例子,假如我们想要考察上大学对个人收入的影响,那么对于任意个体就有两种干预状态,一种是上大学(),另一种是不上大学(),每种状态对应一个潜在结果,上大学对应潜在结果收入,不上大学对应潜在结果收入对于个体,上大学对收入的因果效应是两种状态下潜在结果的比较
但是,一个人不能同时跨入两条河流,我们不可能既观测到个体上大学的收入,又观测到个体不上大学的收入,所以我们通常需要寻找控制组作为个体没有接受干预的反事实参照组。天真的经验研究者可能会直接比较上大学组的收入和没上大学组的收入,将其作为上大学对收入的因果效应:
但是,这么做你会高估上大学对收入的影响。因为大学教育具有正向选择性,那些上大学的人在智商、能力和毅力等方面都相对更强,即使不上大学,他们的收入也比那些没上大学组的收入要高。我们观察到的收入的差异实际上就由两部分组成,一部分是我们关心的因果效应,另一部分就是选择性偏差,它是去上大学的人如果不去上大学与不去上大学的人收入的平均差别

内生性问题

内生性问题具体指的是在回归分析中,解释变量和误差项存在相关关系
内生性问题会使用样本估计的参数偏离总体的真实参数,我们无法得到变量之间真实的因果效应。内生性问题的来源主要有三种:(1)遗漏变量偏差;(2)测量误差偏差;(3)双向因果关系。
有关内生性问题,我很早之前就已经写过一篇推文了,所以在此就不再赘述了,详见“吾日三省吾身:内生性问题及其解决方案”一文。

选择性偏差与内生性问题之间的关系

在观测研究中,我们只能观测到一种状态下的潜在结果,观测结果与潜在结果之间的关系,可以用下面的公式表示:
假设因果效应对所有人都一样,也就是,是个常数,那么我们就可以将上式写为:
其中,的随机部分。根据干预状态的不同,对上式求条件期望可得:
于是
从上面的推导过程中,我们可以清楚地看到:
因此,选择性偏差()意味着回归扰动项和解释变量之间的相关性,也就是我们所说的内生性问题。
总之,选择性偏差与内生性问题的内在本质是一致的,只是外在角度不一样:
选择性偏差的角度:侧重认为是否上大学不是随机的(可能有一些个人特征的影响?比如智商、毅力、能力),这些特征导致控制组并不是好的反事实参照组。
内生性问题的角度:侧重认为存在遗漏变量的问题,比如能力,能力既可能影响是否上大学(解释变量),也会影响收入水平。
选择性偏差是建立在潜在结果框架下的,而内生性问题是建立在高斯马尔科夫假定下的,选择性偏差会带来内生性问题。当我们使用回归模型进行因果推断时,选择性偏差就会具体表现为回归模型中扰动项与解释变量相关,也就是我们所说的内生性问题。
本文仅代表我个人观点,可能存在错误和不严谨之处,请大家指正!

参考资料

[1]乔舒亚·安格里斯特,约恩-斯特芬·皮施克. 基本无害的计量经济学:实证研究者指南[M].上海:格致出版社,2012.

[2]赵西亮.基本有用的计量经济学[M].北京:北京大学出版社,2017.




星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


软件应用 | Python实现CSV文件的合并与拆分

CCAD2021招聘 | 听说这是你想要的另一种生活

软件应用 | 六种定量方法解决内生性问题(stata代码)

CCAD2021招聘 | 听说这是你想要的另一种生活

统计计量 | 一些常见的计量基础问题

CCAD2021招聘 | 听说这是你想要的另一种生活

统计计量 | 寻找工具变量的思路






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 青酱


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存